Иако чет-ботовите станаа исклучително прецизни во именувањето на конечната болест кога ќе ги добијат сите податоци, студијата објавена во списанието JAMA Network Open покажува дека им недостига клучниот процес: клиничкото размислување.
Каде греши вештачката интелигенција?
Проблемот настанува на самиот почеток на случајот, кога информациите се оскудни (на пр. само годините на пациентот и еден симптом). Додека лекарот ја користи „уметноста на медицината“ за да ги елиминира сличните болести и да го стесни изборот, AI се мачи со неизвесноста.
Истражувачкиот тим тестираше 21 модел, вклучувајќи ги најновите верзии GPT-5, Claude 4.5 Opus и Gemini 3.0, користејќи ја алатката PrIME-LLM. Резултатите се јасни:
- Конечна дијагноза: Успешноста оди и над 90% (кога сите податоци се веќе познати).
- Диференцијална дијагноза: Неуспех во повеќе од 80% од обидите.
Најдобри во класата, но сепак недоволни
Меѓу моделите кои покажаа најдобри резултати се издвоија Grok 4, GPT-5, Claude 4.5 Opus и Gemini 3.0 Flash/Pro. Сепак, дури ни овие „чуда“ на технологијата сè уште не поседуваат интелигенција потребна за безбедна употреба без надзор.
„Моделите се одлични кога податоците се комплетни, но потфрлаат на самиот почеток на случајот, кога информациите се малку“, истакнува Арја Рао, една од авторките на студијата.
Лекарите ја предупредуваат јавноста дека вештачката интелигенција може да биде ветувачка алатка за информирање, но клиничката проценка останува незаменлива. Кога станува збор за здравјето, кратенката преку алгоритам сè уште е премногу ризична.
Извор: bizlife.rs